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摘 要 选择 题 中 的 作 管 选项 能 提供 额外 诊断 信息 ,为 充分 利用 选项 信息 , 人 研究 提出 认 知 诊断 计算 机 自 适 应 测验 
(CD-CAT) 中 两 种 处 理 选择 题 选项 信息 的 非 参 数 选 题 策略 和 变 长 终止 规则 。 模拟 研究 的 结果 发 现 : (1) 定 长 条 件 下 两 
种 非 参 数 选 题 策略 的 分 类 准确 性 整体 要 高 于 参数 选 题 策略 ; (2) 两 种 非 参数 选 题 策略 较 参 数 选 题 策略 具有 更 加 均衡 
的 题库 使 用 情况 ; (3) 非 参数 选 题 策略 在 两 种 新 的 变 长 终止 规则 下 具有 更 高 的 分 类 准确 率 ; (4) 两 种 非 参 数 选 题 策略 
均 适 用 于 选择 题 CD-CAT 情境 , 使 用 者 可 任 选 其 一 进行 测验 分 析 。 


关键 词 ” 认 知 诊断 计算 机 自 适 应 测验 , 题目 选项 信息 ， 非 参数 选 题 策略 ， 变 长 终止 规则 
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1 引言 


认 知 诊断 评估 (cognitive diagnostic assessment, 
CDA) 是 对 个 体 的 知识 、 技 能 以 及 认 知 加 工 过 程 进 
行 诊断 分 类 的 一 种 方法 。 其 可 以 提供 个 体 在 各 知识 
内 容 上 的 具体 掌握 情况 , 故 可 知晓 个 体 学 习 过 程 中 
的 优势 与 不 足 ( 辛 涛 等 ,2015), 这 一 方面 有 利于 解 
释 个 体 在 某 些 测验 上 表现 炙 佳 的 原因 ， 同 时 还 有 利 
于 教师 进行 后 续 的 补救 教学 (如 Gao et al., 2021), 
因此 受到 众多 研究 者 的 重视 。CDA 中 对 个 体 进 行 
YEA TT IE EEA BS BOT IE MAE BS BOT IE (EB FA, 
周文 杰 ,，2021), 参数 方法 主要 使 用 认 知 诊断 模型 
(cognitive diagnostic model, CDM) 佑 计 题 日 参数 和 
个 体 属 性 掌握 情况 , 其 中 , 一 般 性 CDM 有 广义 
DINA 模型 (generalized deterministic inputs, noisy 
“and” gate, GDINA; de la Torre, 2011) 等 ,简化 模型 
则 有 DNA 模型 等 。 非 参数 方法 主要 有 聚 类 分 析 法 
(EZ 等 , 2018; 康 春 花 等 , 2015; Chiu et al., 2009), 
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距离 判别 法 ( 康 春花 等 ,2019; E HUE 等 ，2015; 
Chiu et al., 2018) 以 及 机 顺 学 习 法 ( 汪 文 义 等 , 2016; 
Liu & Cheng, 2018)。 

当前 CDA 的 一 个 重要 研究 领域 是 认 知 诊断 计 
算 机 化 自 适 应 测验 (cognitive diagnostic computerized 
adaptive testing, CD-CAT; Chang, 2015, Cheng, 2009)。 
相 较 于 纸 笔 测验 ,CD-CAT 能 够 以 更 少 的 题目 获得 
更 加 准确 的 诊断 结果 , 并 且 其 提供 的 题目 测量 特性 
与 个 体 知识 掌握 水 平 大 体 相当 ， 因 而 可 较 好 地 激发 
个 体 的 作答 动机 ( 陈 平 等 , 2011; 孙 小 坚 等 , 2019; 
Sun et al, 2021), 最 终 实 现 对 个 体 的 准确 测量 。 
CD-CAT 包含 5 个 重要 组 成 部 分 : 题库 、 测验 模型 、 
选 题 策略 、 知 识 状 态 估计 方法 以 及 终止 规则 。 其 中 
选 题 策略 受到 大 量 关 注 ( 郭 右 F, 2016); 常见 的 选 
题 策略 有 基于 作答 分 布 和 基于 后 验 分 布 的 策略 
(Zheng & Chang, 2016), 前 者 包括 KL 信息 (Kullback- 
Leibler information, Xu et al., 2003), GDI (G-DINA 


model discrimination index, Kaplan et al., 2015)55:; 
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后 者 包括 SHE (Shannon entropy, Xu et al., 2003) 等 。 

以 上 选 题 策 略 属于 参数 策略 ,参数 选 题 策 略 的 
优势 在 于 可 以 准确 获得 个 体 在 各 属性 掌握 模式 
(attribute master pattern, AMP) 上 的 掌握 概率 ， 同 时 
也 可 以 获得 较 高 的 分 类 准确 性 。 而 其 潜在 不 足 在 于 
由 于 需 知 晓 题 库 中 的 题目 参数 ， 要求 事先 进行 预测 
试 ， 如 此 ,， 知 样本 量 不 够 大 , 则 题目 参数 的 精度 难 
以 保障 , 同时 还 存在 题库 被 提前 泄漏 的 风险 。 对 此 ， 
研究 者 提出 了 非 参 数 CD-CAT ( 何 明 霜 , 2021; 张 淑 
Æ, 2019; Chang et al., 2019; Chiu & Chang, 2021). 
非 参 数 CD-CAT 只 需 获得 题库 中 各 测验 题目 所 考 
察 的 属性 ,无需 进 行 预测 试 ,因而 降低 了 题库 提前 
泄漏 的 风险 ， 有 旦 无 需 考 虑 题目 参数 估计 偏差 市 来 的 
影响 (Chang et al., 2019)。 模 拟 研究 的 结果 表明 ， 当 
预测 试 样本 较 小 时 ， 非 参数 选 题 策略 下 的 模式 匹配 
率 (pattern matched rate, PMR) 要 优 于 参数 选 题 策 略 
的 PMR (Chang et al., 2019; Chiu & Chang, 2021; 
Yang et al., 2020), 

终止 规则 作为 CD-CAT 的 另外 一 个 重要 成 分 ， 
受 关注 程度 远 低 于 选 题 策略 ， 且 大 部 分 CD-CAT W 
究 使 用 定 长 终止 规则 ,对 变 长 CD-CAT 的 研究 较 少 
(S545 |, 2015). (AMR TK CD-CAT, BK 
CD-CAT 在 测验 效率 、 能 力 估 计 的 收敛 情况 和 估计 
精度 等 方面 均 更 加 优异 ,更 能 体现 自 适 应 测验 的 特 
点 和 优势 ( 郭 舌 等 ,2015)。 对 此 , Hsu 等 (2013) 基 于 
具有 最 大 和 次 大 后 验 概率 的 两 个 AMPs 之 间 的 比值 
提出 一 种 变 长 终止 规则 ; 郭 夭 等 (2015) 提 出 了 6 种 
变 长 终止 规则 ,其 进一步 将 此 6 种 规则 分 成 基于 绝 
对 标准 、 基 于 相对 标准 以 及 结合 绝对 和 相对 标准 的 
混合 终止 规则 ; 上 述 终止 规则 适用 于 参数 CD-CAT, 
难以 拓展 至 非 参 数 CD-CAT 情境 。 张 淑 君 2019) 则 
在 非 参 数 CD-CAT 情境 下 提出 两 种 变 长 终止 规则 
(D1 和 D3), 并 通过 模拟 和 实证 研究 对 两 种 规则 的 
表现 进行 了 探究 ,结果 表明 D3 规则 的 PMR 要 明显 
高 于 D1 规则 的 PMR。 值 得 注意 的 是 , 一 方面 ， 当 
前 关于 非 参 数 终 止 规则 的 研究 依旧 非常 少 ; 另 一 方 
面 ， 张 淑 君 (2019) 提 出 的 D3 终止 规则 思路 在 于 每 
次 估计 个 体 的 AMP 时 , 最 小 非 参 数 距离 (如 汉 明 距 
离 ) 只 能 对 应 一 个 AMP, 但 3 次 估计 的 AMPs 之 间 
可 能 各 不 相同 ,如 此 可 能 增加 估计 误差 。 

当前 无 论 是 参数 还 是 非 参数 CD-CAT, 绝 大 多 
数 研 究 的 主流 题 型 是 选择 题 (multiple-choice，MC)， 
且 对 个 体 的 作答 反应 进行 分 析 时 重点 关注 个 体 是 
否 正确 作答 测验 题目 ， 而 较 少 关注 干扰 项 信息 ,名 


视 了 干扰 项 所 能 提供 的 额外 诊断 信息 ,导致 对 MC 
题目 的 使 用 效率 过 低 ( 郭 和 大， 周文 杰 ，2021; XH, 
2016; de la Torre, 2009). 对 此 , Yigit 等 (2019) 基 于 选 
择 题 DINA 模型 (MC-DINA; de la Torre, 2009) 提 出 了 
同时 考虑 所 有 选项 的 ISD (Jensen-Shannon divergence) 
选 题 策略 ,研究 结果 表明 JSD 策略 下 的 PMR 较 不 
考虑 干扰 项 信息 的 GDI 具有 更 高 的 PMR. 但 JSD 
选 题 策略 属于 参数 策略 ， 意 味 着 题目 参数 估计 偏差 
和 题库 泄露 风险 问题 依然 存在 。 考 虑 到 非 参 数 诊断 
方法 无 需 或 只 需 少 量 预测 试 样本 即 可 获得 较 高 的 
PMR (Chang et al., 2019; Chiu & Chang, 2021), H. 
当前 尚未 有 研究 探讨 非 参 数 方法 如 何在 CD-CAT 
中 利用 干扰 项 信息 以 提升 对 个 体 的 诊断 精度 。 基 于 
此 ,本 研究 一 方面 提出 两 种 CD-CAT 中 融合 干扰 项 
言 息 的 非 参 数 选 题 策略 ， 同 时 ,为 更 好 地 实现 
CD-CAT 的 自 适 应 特点 , 提出 两 种 适用 于 考虑 题目 
选项 信息 的 CD-CAT ( 记 为 mcCD-CAT) 的 非 参 数 变 
长 终止 规则 。 研究 将 通过 模拟 研究 分 别 对 二 种 非 参 
数 选 题 策略 和 变 长 终止 规则 的 性 能 进行 系统 探讨 ， 
以 进一步 丰富 CD-CAT 研究 。 文 章 的 结构 如 下 : PH 
先 介绍 可 处 理 选 项 信息 的 认 知 诊断 方法 ， 其 次 阐述 
非 参数 mcCD-CAT 及 其 变 长 终止 规则 ,之 后 通过 
两 个 模拟 研究 探讨 非 参数 mcCD-CAT 和 终止 规则 
的 性 能 ,最 后 对 结果 进行 讨论 与 展望 。 


2 处 理 选 项 信息 的 认 知 诊断 方法 


目前 研究 者 提出 了 参数 和 非 参 数 的 认 知 诊断 
方法 以 处 理 考 虑 题目 选项 信息 的 认 知 诊断 测验 ， 下 
面 对 此 二 者 进行 介绍 。 
2.1 MC-DINA 模型 

研究 者 提出 了 选择 题 CDMs 以 处 理 选 项 信息 ， 
如 MC-DINA 模型 、SICM 模型 (scaling individuals 
and classifying misconceptions model, Bradshaw & 
Templin, 2014) fll Zi; f4 f£, MC-DINA 模型 (Ozaki， 
2015) 等 。 其 中 SICM 模型 将 个 体 的 潜在 特质 看 作 是 
连续 变量 ， 而 各 干扰 项 则 是 关于 知识 内 容 的 错误 概 
A, 这 与 常规 的 CDA 存在 差异 ， 故 研究 不 考虑 该 
模型 。 考 虑 到 MC-DINA 模型 简单 易 懂 ,参数 的 解 
释 性 也 更 加 通俗 易 懂 , 日 具有 不 错 的 诊断 效果 ， 故 
研究 将 介绍 该 模型 。MC-DINA 模型 的 作答 反应 也 
数 为 : 


Pa (a) = P(X; =h|a;)= 
P(X; -h|gi =9) =P,(h|g) 


T T T 


(1) 
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其 中 ，w 表示 个 体 i 的 AMP; j 表示 题目 , h 表示 选 
项 ，h=1,…, 昌 ;， 昌 ;表示 题目 j 的 选项 个 数 ;，g; 表 
示 个 体 i 在 题目 i 上 所 属 的 组 别 ，gj, 表示 题目 j 中 
第 h 个 选项 的 q MAH, al qu 表示 a; 和 gj 的 内 积 ， 
上 标 T 表示 转 置 ，g; =01--,.H), KP, HRA 
题目 j 中 选项 元 素 不 全 为 0 的 选项 个 数 ， 当 个 体 i 
的 AMP 与 题目 j 的 所 有 选项 均 无 法 匹配 时 ， 
gj -0. P,(h|g) 则 表示 属于 组 别 g 中 的 个 体 在 题 
目 j 上 选择 第 hh 个 选项 的 概率 。 为 保证 模型 可 被 识 
H, 
wil, BARES P. g) =1， 即 组 别 9 中 的 个 体 在 
h-l 

题目 j 上 选择 各 选项 的 概率 总 和 等 于 1。 不 同 于 
DINA 模型 , MC-DINA 模型 的 参数 是 选项 的 选择 概 
率 P;(h |g) AG 

通过 相应 的 参数 估计 方法 如 EM 算法 (de la 
Torre, 2009), MCMC 算法 (Ozaki, 2015) 和 VB 算法 
(Variational Bayesian; Yamaguchi，2020) 即 可 得 到 
MC-DINA 模型 的 参数 和 个 体 的 AMP 估计 值 。 
2. MC 汉 明 距离 法 

郭 硕 和 周文 杰 (2021) 提 出 了 基于 选项 层面 的 非 
参数 诊断 分 类 方法 ， 其 使 用 汉 明 距离 计算 观测 作答 
和 题目 各 选项 的 理想 作答 间 的 距离 总 和 , 距离 总 和 
最 小 的 AMP 将 作为 个 体 的 AMP。 在 此 基础 上 , 他 
们 提出 了 简单 MC 汉 明 距离 、 加 权 MC 汉 明 距离 以 
及 惩罚 MC 汉 明 距离 三 种 非 参 数 方法 ， 其 中 后 两 者 
是 简单 MC 汉 明 距离 的 拓展 。 其 模拟 研究 发 现 ， 简 
单 MC 汉 明 距离 下 的 PMR 要 优 于 另外 二 者 , 故此 
处 将 介绍 简单 MC 汉 明 距离 ， 其 表达 式 为 : 


J Hj 
HDDmc(X;,m;) = >) >, 
j=lh=l 


(2) 


X iin — Nigh 


E (dikajn) x 
ijn = I [2-2 LUE I 1- [[d-o5) 
k=l k=l 


HP, Xin ijn BP BIBRA TMA i 在 题目 j 第 hh 个 选 
项 上 的 实际 作答 和 理想 作答 , 二 者 取 值 均 为 0 或 1， 
表示 个 体 是 否 选 择 该 选项 ，K 表示 题目 i 所 考察 的 
属性 个 数 。 


3 ”考虑 题目 选项 信息 的 CD-CAT 


目前 关于 mcCD-CAT 的 研究 比较 少 ，Yigit 等 
(2019) 在 MC-DINA 模型 的 基础 上 提出 了 参数 ISD 
策略 。 研 究 首先 对 ISD 策略 进行 介绍 ,然后 再 介绍 
本 研究 提出 的 两 种 适用 于 mcCD-CAT 的 非 参数 策 
o JES% CD-CAT 将 基于 作答 反应 与 各 AMPs 


之 间 的 非 参 数 距离 (如 汉 明 距离 ) 对 个 体 进行 分 类 并 
且 选 择 后 续 的 测验 题目 (Chang et al, 2019; Chiu & 
Chang，2021)， 因 而 计算 作答 反应 和 所 有 AMPs 间 
的 距离 是 非 参 数 CD-CAT (包括 mcCD-CAT) 的 核心 
和 基础 。 
3.1 EF JSD 的 mcCD-CAT 

Yigit 等 (2019) 以 MC-DINA 模型 为 基础 ， 提 出 
了 可 以 考虑 所 有 选项 信息 的 ISD 策略 , JSD 策略 是 
一 种 基于 作答 反应 后 验 分 布 的 选 题 策略 ， 通 过 相 
应 的 转换 ,其 与 SHE 策略 等 价 。JSD 策略 的 计算 公 
式 为 : 

JSD, -S(P;x a! )- m S(P,) = 

l 


S| $ P(X; =h|a)za)|- 9 ,z(a)S(Pj) = 
l l 
-> P(X ; - h)log P(X ; =h)- 
h 
> z(a)s(P(X ; -h|aj) 
l 


HP P, 25 Hj x 27 WREE, 表示 所 有 AMPs 3E 
择 各 个 选项 的 概率 ; PY, xl at, 表示 第 1 
种 AMP 在 题目 i 上 选择 各 个 选项 的 概率 ; x 为 2* x1 
的 向 量 , 表示 各 AMP 的 后 验 概率 ; SORR ACH : 
S(x) = E[-logx] ; P(X; =h) 表示 个 体 选择 题目 j 第 
h 个 选项 的 边际 概率 。 候 选 题 目 集 中 具有 最 大 ISD 
值 的 题目 将 提供 给 个 体 作答 。 
3.2 ”基于 MC 汉 明 距离 的 mecCD-CAT 

Ob Hi All Je] SC 7S (2021) $e H AY Nijh 是 对 Ozaki 
(2015) 文 章 所 提 指 标的 修正 ， 该 值 的 计算 过 程 要 求 
个 体 i 对 题目 j 所 考察 属性 的 掌握 情况 与 选项 h 的 
缩减 q 向 量 ( 即 4…,}，Ki 为 正确 选项 所 考察 的 属 
性 个 数 ) 完 全 匹配 ， 其 计算 过 于 严 奇 。 例 如 ,假设 题 
日 j 考察 3 个 属性 ， 其 在 4 个 选项 上 的 缩减 q 向 量 
分 别 为 1 1, 13. {1,0,1}, (1, 0, 0} 和 {0, 0, 0}, HE 
时 ， 基 于 郭 舌 和 周文 杰 (2021) 的 wj 计算 方法 , 缩减 
AMPs 分 别 为 1 1, ORI (1, 0, 0} 的 个 体 在 该 题目 上 
的 理想 作答 向 量 分 别 为 {0, 0, 0, 1} 和 {0, 0, 1, 01. 4H 
理论 上 , AMP 为 {1, 1, 0} 的 个 体 由 于 未 掌握 第 3 个 
属性 ,所 以 其 选择 第 1 和 2 个 选项 的 概率 较 小 ， 而 
第 4 个 选项 未 考察 任何 属性 ， 故 该 个 体 也 不 大 可 能 
选择 该 选项 ,第 3 个 选项 考察 了 第 一 个 属性 ， 而 该 
个 体 也 掌握 了 第 一 个 属性 ， 故 理想 状态 下 , 第 3 个 
选项 是 其 理想 作答 (de la Torre, 2009)。 对 此 , 本 研 
究 将 对 上 述 wj; 的 计算 方法 进行 完善 , 使 其 更 好 地 
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适应 测验 情境 。 由 于 个 体 所 属 组 别 g; A; 之 间 存 
在 对 应 关系 , M H 是 对 不 同 选项 的 qj 向 量 的 表征 ， 
由 此 可 得 ga 也 是 对 qj 的 表征 ， 而 wj 同样 是 对 qu 

的 表征 ， 因 此 gj 和 ih 之 间 有 内 在 关系 。 此 时 ,将 
Nijh 定义 为 : 


0 其 它 = 
其 中 ，g; 表示 个 体 所 属 的 组 别 ， 其 值 可 由 公式 () 
计算 得 到 。 
基于 修改 的 wj 重新 考虑 上 面 的 例子 : 先 用 公 
式 (1) 计 算 缩 减 AMPs 2:329 (1, 1, 01RI (1, 0, 0} 的 
个 体 在 题目 j 中 的 组 别 ， 此 时 , 二 者 的 gi; 均 为 3; 
再 基于 公式 (3), 得 到 二 者 的 wh 均 为 {0, 0, 1, 0}; 最 
后 代入 公式 (2) 计 算 其 HDDmc 值 。 
基于 MC 汉 明 距离 的 mcCD-CAT 实施 流程 为 : 
(1) 初 始 化 测验 题库 ,明确 各 测验 题目 及 选项 所 考 
察 的 属性 ; (2) 从 题库 中 随机 选择 一 个 测验 题目 给 个 
AVES, 记录 个 体 的 作答 反应 ; (3) 计 算 个 体 当 前 作 
答 反 应 向 量 和 所 有 AMPs 间 的 距离 (HDDmc); (4) 基 
于 HDDmc 值 对 所 有 AMPs 进行 升序 排序 ， 并 确定 
顺序 为 前 两 位 的 AMPs (OINEN âa F êng), 其 
对 应 的 距离 分 别 记 为 di, Fl dong ; (5) 从 测验 题库 中 
筛选 出 能 够 区 分 a, 和 如 ， 的 题目 集 S5, 即 S 中 的 题 
BWE Nja, njan HAAR S 为 非 空 集合 , 则 
转 至 步骤 (7),， 反 之 则 转 至 步骤 (6); (OH à n (m > 
3) FIR Gong, FILE MH EMM AR AS; SIE 
时 , Flm=m+1 Se míü, FERHIER), HES 
为 非 空 集合 ; (7) 从 题目 集 S 中 随机 抽取 一 个 题目 给 
个 体 作答 ,记录 其 作答 反应 ; (8) 重 复 步骤 (3) 到 (7)， 
直到 满足 终止 规则 ; (9) 将 di 所 对 应 的 AMP 作为 个 
体 最 终 的 估计 值 。 
由 以 上 流程 可 知 ，mcCD-CAT 实施 流程 和 
Chang 等 (2019) 提 出 的 非 参 数 CD-CAT 实施 流程 大 
体 相 同 , 不 同 之 处 在 于 Chang 等 (2019) 使 用 了 Xu 
等 (2016) 提 出 的 初始 题 选 择 策略 ， 而 mcCD-CAT 则 
无 需 该 步骤 ,其 原因 在 于 mcCD-CAT 将 题目 所 有 
选项 纳入 考虑 ， 而 各 选项 中 的 q 向 量 可 以 较 好 地 体 
现 Xu 等 (2016) 中 的 初始 题 选择 策略 ， 因 此 ,在 测验 
长 度 较 长 的 情况 下 , mcCD-CAT 自身 已经 蕴含 了 Xu 
等 (2016) 的 初始 题 选择 策略 ， 故 不 需要 重复 进行 初 
台 题 的 选择 ， 预 实验 研究 和 后 面 的 模拟 研究 1 均 证 
明了 这 点 。 
3.3 ”基于 Jaccard 距离 的 mcCD-CAT 
Jaccard 相似 度 (Jaccard similarity; Jaccard, 1912) 


1 如 果 g; =h 
Hn = 


最 初 应 用 于 植物 学 领域 , 用 于 测量 两 个 不 同 区 域 A 
AI B 的 植物 种 类 间 的 相似 程度 ， 后 被 广泛 应 用 于 信 
ER 、 数 据 挖掘 和 机 融 学 习 等 领域 Kosub, 2019); 
何 明 霜 (2021) 将 其 应 用 于 多 级 计 分 的 CD-CAT, 本 
研究 将 其 拓展 至 meCD-CAT 情境 。Jaccard 相似 度 
的 计算 方法 为 (Jaccard, 1912): 
ee |ANB| 2 Nap 

lAUB| natng+ngg 
其 中 ，m 和 ns 分 别 表示 区 域 A IB 中 独 有 的 物种 
数量 ， 而 na 则 表示 两 个 区 域 共 有 的 物种 数量 。Jac 
取 值 范围 为 [0, 1], 0 和 1 分 别 表示 完全 不 一 致 和 完 
全 一 致 。 本 研究 将 其 用 于 计算 观察 作答 反应 和 理想 
作答 反应 之 间 的 相似 度 ， 并 基于 相似 度 值 来 对 个 体 
进行 诊断 分 类 , 为 使 Jac 值 与 HDDmc 有 相同 形式 ， 
研究 使 用 1 - Jac 表示 相似 度 (也 称 Jaccard IB ES): 


J Hj 
> > Xin = Tijh) 


j=] h=1 
E 
2;H; 
jal 


其 中 ，X; = {Xa Xj 和 a; = s My os 
4,51 分 别 表 示 个 体 i 的 实际 和 理想 作答 反应 模式 ， 
Xi Gp; ) 表 示 个 体 i 在 题目 ij 上 的 实际 (理想 ) 作 答 模 
式 ， 是 长 度 为 巧 的 二 分 向 量 ， 如 Xi = {0,1,0,0} 表示 
个 体 选 择 了 第 2 个 选项 。 了 表示 个 体 作 答 的 题目 数 
E, I(-) 为 指示 函数 ,表示 括号 内 的 表达 式 是 否 成 立 ， 
成 立 为 1, 反之 为 0。 文中 JDDmc 的 计算 过 程 与 何 
明 霜 (2021) 的 计算 过 程 之 间 的 主要 差异 在 于 理想 作 
答 模式 的 计算 ,本 文中 的 理想 作答 模式 的 计算 见 公 
式 (3)。 

需 注 意 的 是 ,由 于 事先 并 不 清楚 个 体 的 AMP, 
故 无 法 直接 获得 jj， 此 时 ,将 依次 计算 所 有 可 能 的 
AMPs 在 这 些 题目 上 的 理想 反应 坊 , 1=1,…,2* ,并 
计算 wy 和 XX; 之 间 的 JDD (H, 个 体 最 终 的 AMP 具有 
最 小 的 JDD fH, 若 最 小 JDD 值 对 应 多 个 AMPs, M 
从 中 随机 选择 一 个 。 

基于 JDDme 的 mcCD-CAT 实施 流程 和 基于 
HDDmc 的 mcCD-CAT 实施 流程 基本 相同 , 不 同 之 
处 在 于 步骤 (3)， 此 时 使 用 Jaccard 距离 计算 公式 来 
计算 个 体 实际 作答 反应 向 量 和 所 有 AMPs 间 的 非 参 
数 距 离 。 
3.4 终止 规则 

CD-CAT 的 终止 规则 分 为 定 长 和 变 长 两 类 。 当 
测验 为 定 长 时 ， 其 终止 规则 为 预先 设 定 的 题目 长 度 ， 
这 在 非 参 数 和 参数 CD-CAT 中 均 适 用 ; 当 测 验 为 变 


Ja 


[Xi Om; 
IX; Uni] 


JDDmc( X;,1; )=1 
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长 时 ,， 张 淑 君 (2019) 在 非 参数 CD-CAT 中 提出 DI 
和 D3 两 种 终止 规则 ,其 思路 是 每 次 估计 个 体 AMP 
时 ,最 小 距离 (如 HDDmc) 是 否 对 应 唯一 的 AMP. 
D1 规则 下 , 个 体 作答 某 题 目 后 ， 当 最 小 HDDmc 只 
对 应 一 个 AMP 时 ,结束 测验 ; D3 规则 下 ,每 次 估 
计 个 体 AMP 时, 要 求 具 有 最 小 HDDmc 只 对 应 唯一 
的 AMP, 且 这 种 一 一 对 应 关系 需 连 续 出 现 3 次 才能 
结束 测验 。 

本 研究 基于 限制 性 MHRM 算法 (cMHRM; Liu 
et al.，2020) 和 基于 距离 比 的 思路 提出 两 种 适用 于 
非 参 数 CD-CAT 的 变 长 终止 规则 (分 别 记 为 MR 和 
DR 规则 )， 以 丰富 此 方面 的 研究 。Liu 等 (2020) 使 
用 cMHRM 算法 估计 CDM, 该 算法 需 计算 前 后 两 
次 迭代 的 所 有 参数 估计 值 间 的 差 值 6, 并 取 最 大 
差 值 max (8), 将 每 次 迭代 的 max (5) 组 成 向 量 A= 
{max(61),…,max(6')}， 当 A 中 连续 4 个 max(5) 均 小 
于 预 设 标准 时 ， 算 法 结束 。 本 研究 将 借鉴 该 思想 : 
当 连 续 4 次 所 估计 的 AMPs 均 相 同时 ,测验 终止 ， 
并 将 该 AMP 作为 个 体 最 终 的 AMP。 第 二 种 变 长 终 
止 规则 是 计算 dj, 和 dy 之 间 的 比值 ， 该 方法 的 思 
想 在 因子 分 析 中 抽取 单个 因子 时 经 常 被 使 用 。 本 研 
究 通过 计算 diu (dig > CR (CR 为 预 设 值 ) 来 终止 
WIE, Ji dia 所 对 应 的 AMP 为 个 体 最 终 的 AMP。 


4 研究 1: 定 长 meCD-CAT 下 两 种 
非 参 选 题 策略 的 性 能 


41 研究 目的 

在 固定 测验 长 度 条 件 下 ， 探 讨 两 种 考虑 干扰 项 
言 息 的 非 参数 选 题 策 略 在 不 同 实验 条 件 中 的 性 能 ， 
并 将 其 与 参数 选 题 策略 (JSD) 进 行 比 较 。 
42 ”研究 设计 
42.1 Bes 

研究 的 自 变 量 有 6 个 , 分 别 为 属性 个 数 、Q HE 
阵 结构 、 题 目 质 量 、 属 性 分 布 形态 、 测 验 长 度 和 选 
题 策略 。 具 体 而 言 , (1) 属 性 个 数 分 别 为 4 和 6 个 ,4 
和 6 个 属性 在 以 往 研究 中 比较 常见 (如 : 孙 小 坚 等 
2019, 2021; Sun et al., 2021). (2) Q 矩阵 的 结构 有 两 
种 ,分 别 为 简单 结构 和 复杂 结构 ( 郭 禹 等 ,2015)， 
其 中 简单 结构 下 , 题目 的 正确 选项 考察 各 属性 的 概 
率 为 20%， 且 正确 选项 至 少 考察 一 个 属性 ; 复杂 结 
构 下 , 题目 正确 选项 考察 各 属性 的 概率 则 为 50%。 
错误 选项 的 q 向 量 则 为 正确 选项 的 子 集 ， 且 选项 之 
间 具 有 包含 关系 (de la Torre, 2009)。(3) 题 目 质量 有 
3 个 水 平 ， 分 别 为 高 、 低 和 混合 质量 ,题目 质量 将 通 


iX 1— P;(h| g) 给 予 表征 ,3 种 质量 分 别 服从 以 下 均 
名 分 布 (Sun et al., 2020): U (0.05, 0.25), U (0.25, 
0.45) ffl U (0.05, 0.45), 剩余 选项 平均 分 配 1- P;(h| g) 


H; 
值 ， 以 保证 > Pi(n| 9g)=1。(4) 属 性 分 布 形态 有 两 种 ， 
h=1 


439] 29 ZCI AS B (A AY) (HO: 郭 舌 ， 周 
X 7k, 2021; Chang et al., 2019; Chiu & Chang, 
2021)。(5) 测 验 长 度 有 3 个 水 平 ， 由 于 涉及 不 同属 性 
个 数 ， 故 人 研究 针对 属性 个 数 进行 测验 长 度 的 设 定 ,3 
种 测验 长 度 分 别 为 2K、3K 和 4K, 其 中 K 表示 属 
性 个 数 。(6) 选 题 策略 有 3 个 水 平 , 分 别 为 HDDmc、 
JDDmc 和 JSD。 
4.2.2 ”控制 变量 

研究 的 控制 变量 主要 有 测验 模型 、 题 库 大 小 、 
选项 数量 、 正 式 测 试 的 人 数 。 研 究 将 用 MC-DINA 
模型 生成 作答 数据 (Yigit et al., 2019), 选择 该 模型 
的 原因 在 于 ,首先 ， 可 处 理 题 日 选项 信息 的 饱和 
CDM 非常 少 , 相关 研究 也 不 成 熟 ， 且 参数 难以 解 
释 和 估计 ; 其 次 ， 当 前 绝 大 多 数 CD-CAT 的 研究 采 
用 简化 模型 如 (DINA) 进 行 分 析 , 只 有 极 少 量 人 研究 
使 用 饱和 模型 ; 最 后 ,相关 的 实证 研究 亦 采 用 
DINA 模型 进行 CD-CAT 分 析 ( 如 Liu et al., 2013)。 
题库 方面 则 固定 题库 中 的 题目 数量 为 480 ( 孙 小 坚 
等 , 2021)。 选 项 个 数 固定 为 4 个 , 这 在 实际 测验 中 
较为 和 常见。 正式 测 试 的 人 数 则 固定 为 S00 人 (Chang 
et al., 2019)。 此 外 , 参考 以 往 研 究 (如 Chang et al., 
2019; Chiu & Chang, 2021; Yang et al., 2020), 使 用 
JSD HT, 先 基 于 预测 试 进行 参数 校准 ， 此 时 校准 的 
样本 量 固定 为 40K， 其 中 K 为 属性 个 数 ; 校准 完毕 
后 ,将 基于 校准 的 题目 参数 选择 最 佳 的 侯 选 题 目 。 

研究 总 共有 2 (属性 个 数 ) x 2 (Q 矩阵 结构 ) x 
3 (题目 质量 ) x 2 (属性 分 布 形 态 ) x 3 (测验 长 度 ) x 
3 ( 选 题 策略 ) = 216 种 实验 条 件 ， 其 中 选 题 策略 为 被 
试 内 变量 ,其它 则 为 被 试 间 变 量 。 为 减少 抽样 误差 ， 
各 实验 条 件 重复 30 次 。 所 有 程序 用 R 软件 实现 。 
4.3 ”评价 指标 

评价 指标 有 两 类 , 一 类 用 于 评价 诊断 分 类 的 准 
HAE, 用 PMR 体现 , 其 值 在 0 和 1 之 间 , 值 越 大 则 分 
类 越 准确 ; 男 一 类 则 用 于 评价 题库 使 用 情况 , 包括 
测验 整体 曝光 率 7, 测验 重生 率 (TOR)、 曝光 不 足 率 
(UIR) 和 过 度 曝 光 率 (OIR)， 四 者 越 小 越 好 ( 陈 平 等 ， 
2011; 孙 小 坚 等 ,2021)。 以 上 指标 的 计算 公式 为 : 


] N 
pur LY SiG =a) J 


r=1L i=l 
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1 R Nitem 
x i3 > esL Nag)? fa Mag) 
r=] j=l 


R | Niem 
| Sj -D 
jal 


1 
R JxNx(N-!) 
R 


1 
UIR — pubs I(exp ; < 0.02)/Nitem | 


r=l 


12 
OIR = 524 Lex; > 0.2)/Nitem | 


r=l 
Hop, R AMARA, afl a; 分别 表示 估计 和 真实 
的 AMP; NG 则 为 题目 j 被 使 用 的 次 数 。 
44 研究 结果 
4.4.4 HDDmc 和 JDDmc 的 分 类 准确 性 整体 优 于 
JSD 

图 1 呈现 了 4 个 属性 下 3 种 选 题 策略 在 不 同 实 
验 条 件 下 的 PMRs。 整 体 而 言 ， 两 种 非 参 数 策略 
(HDDmc 和 JDDmc) 的 估计 准确 性 在 所 有 条 件 下 基 
本 相同 , 并 且 二 者 在 绝 大 多 数 条 件 下 的 PMRs 要 高 
于 JSD 方法 。 具 体 而 言 , 在 题目 质量 为 高 和 混合 条 


fF, HDDmc fill JDDmc 的 PMRs 整体 要 高 于 JSD 
方法 , 并且 随 着 测验 长 度 的 增加 ，HDDmc 和 
JDDmc 5j JSD 间 的 PMR 差异 不 断 增 大 。 在 简单 Q 
矩阵 和 低 题 目 质 量 条 件 下 , JSD 5 HDDmc 和 
JDDmc 之 间 的 差异 比较 小 , 在 部 分 条 件 下 JSD 的 
PMR 略微 高 于 HDDmc 和 JDDmce; 但 在 复杂 Q HE 
阵 条 件 下 ,，HDDmc fll JDDmc 的 PMR 要 明显 高 于 
JSD 方法 ， 只 在 两 个 条 件 (混合 题目 质量 下 测验 长 
度 为 2K 和 3K) 下 的 PMR 与 JSD 相同 或 相近 。 此 外 ， 
题目 质量 和 测验 长 度 对 3 种 选 题 策 略 具 有 积极 影响 ， 
题目 质量 越 高 、 测 验 长 度 越 长 , 则 3 种 策略 的 PMR 
Rao AIh, 非 参 数 方法 在 复杂 Q 矩阵 下 的 PMRs 
整体 高 于 简单 Q 矩阵 的 结果 。 

6 个 属性 下 3 种 选 题 策 略 在 不 同 实验 条 件 下 的 
PMRs 如 图 2 所 示 。 简单 Q 矩阵 条 件 下 , HDDmc 和 
JDDmc 在 3 个 条 件 下 的 PMRs 高 于 JSD， 而 在 剩余 
6 个 条 件 下 的 PMRs 则 低 于 JSD, 特别 是 在 混合 题 
目 质量 下 , 二 者 与 JSD 在 PMRs 上 存在 比较 大 的 差 
异 。 复 杂 Q 和 矩阵 条 件 下 , HDDmc 和 JDDmc 的 PMRs 
则 在 大 多 数 条 件 下 高 于 JSD 策略 ， 只 在 混合 题目 质 
EM 2K 个 题 日 长 度 下 的 PMR 小 于 JSD。 当 题目 质 


二 

1.0 多 元 正 态 UE Ap x— HDDmc 
—2— JDDmc 

0.8 —e— JSD 

cá 

= 0.6 

[zu 
0.4 
0.2 


AK 
简单 Q 和 矩阵 


低 
简单 Q 和 矩阵 


低 
复杂 Q 和 矩 阵 


复杂 Q 和 矩阵 


图 1 四 个 属性 下 各 条 件 的 分 类 准确 性 
iE: 2-4K 表示 测验 长 度 为 属性 个 数 的 2-4 倍 ; HDDme 为 基于 MC 汉 明 距离 的 选 题 策略 , JDDmc 为 基于 Jaccard 距离 的 


选 题 策 略 , ISD 为 基于 ISD 的 选 题 策略 ， 下 同 。 
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1.0 多 元 正 态 立 值 分 布 —x— HDDmc 
—4— JDDmc 
an —e— JSD 


低 
简单 Q 和 矩阵 


简单 Q 和 矩阵 
图 2 六 个 属性 下 各 条 件 的 分 类 准确 性 


量 较 低 时 , HDDmc 和 JDDmc 的 PMR 明显 高 于 JSD 
方法 , 且 在 4K 时 差异 达到 最 大 。 与 4 个 属性 时 的 
结果 相同 , 题目 质量 和 测验 长 度 对 所 有 选 题 策略 具 
有 正 问 影响 , 题目 质量 越 高 、 测 验 长 度 越 长 , 则 3 
种 选 题 策略 的 PMRs 越 高 。 另 外 ,属性 分 布 形态 对 
选 题 策略 几乎 没有 影响 。 
4.4. HDDmc 和 JDDme 的 题库 使 用 情况 较 ISD 
更 加 均衡 

由 于 6 个 属性 下 的 各 选 题 策略 的 题库 使 用 情况 
和 4 个 属性 时 的 题库 使 用 情况 大 体 相 同 ， 故 不 在 正 
文 当中 呈现 , 感 兴趣 的 读者 可 向 作者 索要 。 表 1 呈 
现 了 4 个 属性 时 3 种 选 题 策 略 在 多 元 正 态 国 值 分 布 
下 的 题库 使 用 情况 ,总体 而 言 , HDDmc 和 JDDmc 
二 者 在 题库 使 用 方面 较 JSD 策略 更 加 均衡 ; 
HDDmc 和 JDDme 的 题库 使 用 情况 基本 相同 。 具体 
而 言 , 入 方面 HDDme 和 JDDme 的 x 分 别 在 
1.167~1.932 和 1.135~1.932 之 间 , 而 JSD 则 在 
102.493~199.925 之 间 , JSD 的 整体 曝光 率 远 大 于 
HDDmc 和 JDDme 二 者 。 测 验 重 至 率 (TOR) 方 面 ， 
HDDmc fil JDDmc 的 TOR 远 小 于 JSD 的 方法 , 二 
者 的 TOR 范围 均 为 0.017~0.035, Ti JSD AY TOR ji 
围 在 0.229~0.449, 说 明 HDDmc 和 JDDmc 在 为 每 


低 
FRQ RE 
均匀 分 布 —x— HDDmc 
—4— JDDmc 


—e— JSD 


复杂 Q 和 矩阵 


个 个 体 选 择 题目 时 并 没有 固定 地 选择 某 些 共同 题 
目 ,而 是 尽 可 能 地 从 题库 中 选择 不 同 的 测验 题目 给 
个 体 作答 。 在 曝光 不 足 率 (UIR) 和 过 度 曝 光 率 (OIR) 
Jr ifi, HDDmc 和 JDDmc 同样 表现 的 要 比 ISD 策略 
更 好 ,二 者 的 UIR 和 OIR 均 小 于 JSD 方 法 , 特别 是 
UIR, JSD 策略 的 UIR HÆ 0.80 以 上 , 说 明 使 用 JSD 
策略 时 ,题库 中 存在 大 量 曝光 不 足 的 题目 。JSD 的 
OIR 值 虽然 比较 小 (在 0.10 以 下 ), 但 HDDmc 和 
JDDmc 的 OIR 均等 于 0, 说 明 这 两 种 非 参 数 选 题 策 
略 不 存在 过 度 曝 光 的 题目 ,而 JSD 则 存在 部 分 过 度 
曝光 的 题目 。3 种 选 题 策略 在 均匀 分 布下 的 题库 使 
用 情况 与 多 元 正 态 阔 值 分 布下 的 相同 ， 故 不 再 呈现 
具体 结果 : HDDmce 和 JDDmc 的 题库 使 用 情况 明显 
好 于 ISD, 二 者 在 整体 曝光 率 、 测 验 重 准 率 、 曝 光 
不 足 率 和 过 度 曝光 率 上 的 值 明显 小 于 JSD。 


5 研究 2: AK mcCD-CAT 下 两 种 
韭 参 选 题 策略 的 性 能 


51 研究 目的 

探讨 HDDmc 和 JDDmc 在 两 种 新 的 非 参 数 变 
长 终止 规则 中 的 表现 情况 ,并 将 其 与 现 有 的 非 参数 
变 长 终止 规则 进行 比较 。 
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Rl 四 个 属性 时 3 种 策略 的 题库 使 用 情况 (多 元 正 态 阔 值 分 布 ) 
题目 测验 诊断 简单 Q 和 矩阵 复杂 Q IERE 
质量 长 度 方法 x TOR UIR OIR x TOR UIR OIR 
HDDmc 1.343 0.018 0.663 0.000 1.214 0.017 0.663 0.000 
2K JDDmc 1.325 0.017 0.667 0.000 1.210 0.017 0.659 0.000 
JSD 148.184 0.324 0.931 0.022 102.493 0.229 0.899 0.022 
HDDmc 1.620 0.026 0.277 0.000 1.432 0.026 0.265 0.000 
高 3K JDDmc 1.638 0.026 0.281 0.000 1.431 0.026 0.259 0.000 
JSD 171.692 0.381 0.905 0.045 121.801 0.277 0.869 0.043 
HDDmc 1.932 0.035 0.096 0.000 1.659 0.035 0.078 0.000 
4K JDDmc 1.932 0.035 0.093 0.000 1.660 0.035 0.077 0.000 
JSD 187.661 0.423 0.875 0.059 133.228 0.310 0.839 0.060 
HDDmc 1.236 0.017 0.669 0.000 1.167 0.017 0.666 0.000 
2K JDDmc 1.216 0.017 0.660 0.000 1.135 0.017 0.668 0.000 
JSD 187.023 0.405 0.934 0.023 139.115 0.305 0.909 0.023 
HDDmc 1.392 0.026 0.256 0.000 1.273 0.026 0.242 0.000 
低 3K JDDmc 1.413 0.026 0.256 0.000 1.250 0.026 0.239 0.000 
JSD 194.582 0.429 0.902 0.039 152.600 0.342 0.873 0.043 
HDDmc 1.581 0.035 0.064 0.000 1.418 0.034 0.064 0.000 
4K JDDme 1.581 0.035 0.065 0.000 1.425 0.034 0.065 0.000 
JSD 199.925 0.449 0.872 0.050 165.428 0.377 0.840 0.053 
HDDmc 1.260 0.017 0.664 0.000 1.169 0.017 0.665 0.000 
2K JDDmc 1.292 0.017 0.663 0.000 1.143 0.017 0.662 0.000 
JSD 173.083 0.376 0.938 0.028 142.062 0.311 0.918 0.021 
HDDmc 1.509 0.026 0.264 0.000 1.343 0.026 0.249 0.000 
混合 3K JDDmc 1.537 0.026 0.268 0.000 1.378 0.026 0.255 0.000 
JSD 191.497 0.423 0.901 0.035 173.288 0.385 0.898 0.037 
HDDmc 1.737 0.035 0.082 0.000 1.546 0.035 0.072 0.000 
4K JDDmc 1.763 0.035 0.083 0.000 1.589 0.035 0.071 0.000 
JSD 192.640 0.434 0.868 0.051 181.812 0.411 0.867 0.052 


5.2 ”研究 设计 


S.2.1 HSE 


属性 下 的 CR 值 分 别 设 为 1.3 和 1.25 时 , HDDmc 和 
JDDme 可 获得 较 好 的 结果 , 故 本 研究 使 用 这 两 个 


研究 2 的 自 变 量 个 数 有 6 个 ,其 中 属性 个 数 、 
Q 和 矩阵 结构 、 题 目 质量 和 属性 分 布 形态 4 个 自 变量 
的 设 定 与 研究 1 相同 。 剩 余 两 个 自 变 量 为 终止 规则 
和 选 题 策 略 , 终止 规则 有 4 个 水 平 , 分别 为 张 淑 君 
(2019) 提 出 的 D1 和 D3 规则 ,以 及 本 研究 中 的 MR 
和 DR 规则 。 选 题 策 略 方面 ， 由 于 参数 终止 规则 无 
法 与 非 参数 选 题 策 略 匹 配 ， 故 未 考虑 参数 选 题 策 略 
(JSD)， 而 重点 关注 HDDmc 和 JDDme 二 者 在 不 同 
终止 规则 下 的 表现 。 
5.22 ”控制 变量 

研究 2 中 的 控制 变量 和 题库 与 研究 1 相同 ， 测 
试 人 数 的 真实 AMPs 重新 生成 。 由 于 DR 规则 需 预 
先 设 定 CR 值 ， 基 于 预 实 验 的 结 末 , 将 4 个 和 6 个 


值 。 测 验 长 度 的 上 限 设置 为 30 BS 等 ,2015， 
2016). 此 外 ,为 防止 测验 未 测量 所 有 属性 而 导致 提 
前 终止 的 情况 ,研究 使 用 Xu 等 (2016) 的 初始 题目 
选择 程序 以 保证 每 个 个 体 在 每 个 属性 上 均 提 供 了 
相应 的 作答 信息 。 

研究 总 共有 2 (属性 个 数 ) x 2 (Q 矩阵 结构 ) x 3 
(题目 质量 ) x 2 (属性 分 布 形态 ) x 4 (终止 规则 ) x 2 
( 选 题 策略 ) = 192 种 实验 条 件 ， 其 中 终止 规则 和 选 
题 策略 为 被 试 内 变量 ， 其 它 则 为 被 试 间 变量 。 各 条 
件 重复 30 次 。 所 有 程序 用 R 软件 实现 。 
5.3 ”评价 指标 

研究 的 评价 指标 同样 分 为 准确 性 指标 和 题目 
使 用 情况 ， 其 中 准确 性 指标 为 PMR， 而 题目 使 用 情 
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况 的 指标 则 为 平均 测验 长 度 (M)、 最 小 测验 长 度 
(Min), 最 大 测验 长 度 (Max)、UIR 和 OIR (GEA 等 ， 
2016; 孙 小 坚 等 , 2021)。 
5.4 研究 结果 

KR 2 和 表 3 分 别 呈 现 了 多 元 正 态 阔 值 分 布下 ， 
HDDmc 和 JDDmc 在 4 个 和 6 个 属性 的 表现 情况 ， 
整体 而 言 ， HDDmc 和 JDDmc 在 MR 和 DR 两 种 终 
止 规则 下 的 分 类 准确 性 较 D1 和 D3 高 , 但 测验 长 度 
更 长 ; 同时 二 者 在 曝光 不 足 率 上 的 表现 优 于 D1 和 
D3。 下 面 分 别 对 两 个 表格 进行 阐述 。 表 2 呈现 了 
HDDmc 和 JDDmc Æ 4 4-J& HE A 76 E s B (8L 27 48 
条 件 下 的 分 类 准确 性 (PMR) 以 及 题库 使 用 情况 ,MR 
和 DR 规则 下 ,HDDmc 和 JDDmc 的 PMRs 范围 为 
0.441~0.775 (M =0.659); 二 者 在 Dl 和 D3 规则 下 的 
PMRs 则 为 0.288~0.703 (M = 0.475). 测验 长 度 的 使 
用 方面 , HDDmc 和 JDDmc 在 MR 和 DR 规则 下 的 
平均 测验 长 度 、 最 小 测验 长 度 以 及 最 大 测验 长 度 三 


者 均 要 大 于 D1 和 D3 规则 下 的 使 用 情况 。HDDmc 
fll JDDmc 在 Dl 和 D3 上 的 平均 、 最 小 和 最 大 题 日 
长 度 的 范围 分 别 为 5.289~8.319、5.0~7.0 和 8.667~ 
14.90; 而 二 者 在 MR 和 DR 规则 下 的 平均 、 最 小 和 
最 大 题目 长 度 则 分 别 为 9.274~20.838、5.0~7.0 和 
25.033~30.0。 题 目 曝 光 率 方面 , HDDmc 和 JDDmc 
在 MR 和 DR 规则 下 曝光 不 足 率 (UIR) 明 显 小 于 二 
者 在 D1 和 D3 规则 下 的 UIR, MR 和 DR 规则 下 的 
UIR 为 0.003~0.661 (M = 0.345), 而 Dl 和 D3 规则 下 
的 UIR 则 为 0.608~0.849 (M = 0.737), 说 明 HDDmc 
和 JDDmc 在 Dl 和 D3 规则 下 存在 大 量 曝光 不 足 的 
题目 , 而 MR 和 DR 规则 下 曝光 不 足 的 题目 则 较 少 ; 
此 外 , 所 有 终止 规则 下 的 过 度 上 曝光 率 (OIR) 均 为 0, 
说 明 两 种 非 参 数 选 题 策略 在 不 同 终止 规则 下 均 不 
存在 过 度 曝 光 的 题目 。 均匀 分 布下 的 分 类 结果 和 题 
库 使 用 情况 与 多 元 正 态 立 值 分 布下 的 相同 , 将 不 再 


EM, 


R2 四 个 属性 时 两 种 非 参 方法 的 分 类 结果 及 题库 使 用 情况 (多 元 正 态 阔 值 分 布 ) 


题目 ”终止 诊断 简单 Q 矩阵 复杂 Q 和 矩阵” 
质量 ”规则 方法 M Min Max UIR PMR M Min Max UIR PMR 
HDDmc 9.274 7 25.0033 0.520 — 0.712 9.369 7 26.333 0.661 0.775 
"S JDDmc 9.300 7 25.367 0.511 0.710 9.402 y 25.600 0.659 0.768 
HDDmc 13.785 5 30.000 0.134 0.724 11.767 5 30.000 | 0.473 0.738 
" = JDDmc 14.876 5 30.000 0.086 0.745 12.853 5 30.000 0.363 0.752 
HDDmc 5.308 5 8.733 0.849 0.496 5.289 5 9.400 — 0.751 0.514 
m JDDmc 5.303 5 8.667 0.846 0.490 5.293 5 9.200 0.752 0.508 
HDDmc 7.939 7 12.833 0.650 0.648 7.914 7 13.433 0.728 0.703 
M JDDmc 7.964 7 12.900 0.651 0.651 7.920 7 13.600 0.726 0.702 
HDDme 10.204 7 28.667 0.414 0.450 10.482 7 29.167 0.577 . 0.509 
id JDDmc 10.199 7 28.367 0.415 0.441 10.460 7 29.133 0.582 0.514 
HDDmc 19.536 5 30.000 0.009 0.629 17237 5 30.000 0.097 0.648 
= JDDmc 20.838 5 30.000 | 0.003 0.641 18.545 5 30.000 0.068 0.663 
HDDmc 5.431 5 9.333 0.839 0.288 5.430 5 10.300 0.750 — 0.303 
P JDDmc 5.423 5 9.333 0.841 0.293 5.418 5 10.367 — 0.751 0.310 
HDDmc 8.308 7 13.833 0.612 0.396 8.319 了 14.900 0.716 0.445 
m JDDmc 8.315 7 13.800 0.608 0.397 8.303 7 14.733 0.719 — 0.434 
HDDmc 9.762 7 26.400 | 0.463 0.591 9.961 7 27.233 0.620 | 0.666 
cd JDDmc 9.765 7 25.867 0.466 0.595 9.915 7 27.733 0.619 0.665 
HDDme 16.321 5 30.000 0.042 0.720 13.902 5 30.000 0.277 071 
gu x JDDmc 17.570 5 30.000 | 0.027 0.729 15.141 5 30.000 0.192 0.724 
HDDmc 5.368 5 8.833 0.839 0.379 5.364 5 10.033 0.750 — 0.416 
i JDDmc 5.368 5 9.000 0.845 0.391 5.352 5 9.700 0.750 0.418 
HDDmc 8.138 7 13.200 0.633 0.521 8.135 7 14.467 0.722 0.585 
" JDDmc 8.131 7 13.233 0.629 0.530 8.125 7 13.867 0.723 0.589 

iE: MR 表示 基于 限制 性 MHRM 算法 的 终止 规则 , DR 表示 基于 距离 比 的 终止 规则 ; ”表示 OR 均 为 0。 
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表 3 六 个 属性 时 两 种 非 参 方法 的 分 类 结果 及 题库 使 用 情况 (多 元 正 态 阔 值 分 布 ) 
题目 ”终止 诊断 简单 Q 矩阵 复杂 QE 
质量 ”规则 方法 M Min Max UIR PMR M Min Max UIR PMR 
HDDmc 11.814 9 29.067 0.381 0.536 12.226 9 29.000 — 0.381 0.536 
x JDDmc 11.845 9 28.067 0.380 0.529 12218 9 29.400 0.380 0.529 
HDDmc 12.628 7 30.000 0.351 0.485 11.571 7 30.000 0.351 0.485 
" = JDDmc 16.169 了 30.000 0.113 0.603 14.532 y 30.000 0.113 0.603 
ü HDDmc 7.320 7 11.167 0.574 0.319 7.295 7 11.900 0.574 0.319 
m JDDmc 7.317 7 11.300 0.576 0.316 7.287 7 11.700 0.576 0.316 
HDDmc 9.988 9 15.767 0.493 0.440 10.015 9 17.533 0.493 0.440 
s JDDmc 9.984 9 15.600 0.496 0.442 9.992 9 16.533 0.496 0.442 
HDDmc 12.946 9 29.900 0.307 0.273 13.599 9 30.000 0.307 — 0273 
i JDDmc 12.934 9 29.867 0.308 | 0.274 13.463 9 30.000 0.308 — 0274 
HDDmc 16.994 7 30.000 0.098 0.353 15286 7 30.000 0.098 0.353 
xi JDDmc 21.679 7 30.000 0.014 0.457 19.653 7 30.000 0.014 0.457 
B HDDmc 7.428 y 12.000 0.572 0.141 7.434 7 12.900 0.572 0.141 
B JDDmc 7.436 7 11.800 0.569 0.146 7.427 7 12.967 0.569 0.146 
HDDmc 10.332 9 16.533 0.484 0.210 10.396 9 17.833 0.484 0.210 
= JDDme 10.352 9 16.867 0.482 0.213 10.404 9 18.367 0.482 0.213 
HDDmc 12.468 9 29.683 0.335 0.400 12.834 9 29.833 0.335 0.400 
nme JDDmc 12.438 9 29.683 0.337 0.389 12.954 9 29.967 0.337 . 0.389 
HDDmc 14.683 7 30.000 0.204 0423 12.770 7 30.000 0.204 0.423 
BA DR JDDmc 19.093 7 30.000 0.036 0.559 16.560 7 30.000 0.036 0.559 
»i HDDmc 7.385 7 11.533 0.570 0212 7.376 7 12.733 0.570 | 0212 
JDDmc 7.390 7 11.533 0.573 0.210 7.367 7 12.933 0.573 0210 
HDDmc 10.202 9 16.233 0.486 0.314 10.198 9 17.533 0.486 0.314 
D3 JDDmc 10.179 9 16.500 0.488 0.309 10.234 9 17.800 0.488 0.309 


TE: * 表示 简单 Q 矩阵 结构 下 的 OR 均 为 0; ”表示 复杂 Q 矩阵 结构 下 的 OIR 3575 0.008. 


表 3 呈现 了 HDDmc 和 JDDmc 在 6 个 属性 和 
多 元 正 态 阔 值 分 布 条 件 下 的 分 类 准确 性 PMRJ) 以 及 
题库 使 用 情况 。MR 和 DR # F, HDDmc 和 
JDDmc 的 PMRs 范围 为 0.273~0.639 (M = 0.471); 
二 者 在 D1 和 D3 规则 下 的 PMRs 则 为 0.141~0.511 
(M = 0.296)。 测 验 长 度 的 使 用 方面 HDDmc 和 
JDDmc Æ D1 和 D3 上 的 平均 、 最 小 和 最 大 题目 长 
度 的 范围 分 别 为 7.287~10.404、7.0~9.0 和 11.167~ 
18.367; 而 二 者 在 MR 和 DR 规则 下 的 平均 、 最 小 
和 最 大 题目 长 度 则 分 别 为 11.571~21.679、7.0~9.0 
和 28.967~30.0。 题目 曝光 率 方面 , HDDmc 和 JDDmc 
在 MR 和 DR 规则 下 的 UIR 为 0.036-0.811 (M = 
0.412), 而 Dl 和 D3 规划 下 的 UIR 则 为 0.482~0.902 
(M = 0.711)。 此 外 ,所 有 终止 规则 下 的 过 度 曝 光 率 
(OIR) 均 非常 小 ,说 明 两 种 非 参数 选 题 策略 在 不 同 
终止 规则 下 均 难 以 产生 过 度 曝 光 的 题目 。 均 匀 分 布 
下 的 分 类 结果 和 题库 使 用 情况 与 多 元 正 态 阔 值 分 


布下 的 相同 ， 故 不 再 呈现 。 
6 讨论 与 结论 


6.1 研究 讨论 

当前 大 部 分 CD-CAT 的 研究 常 忽略 干扰 项 的 
诊断 信息 , 造成 资源 的 浪费 , 对 此 Yigit 等 (2019) 基 
于 MC-DINA 模型 提出 了 综合 使 用 题目 所 有 选项 信 
息 的 参数 选 题 策略 ， 并 取得 理想 结果 。 但 参数 方法 
面临 计算 复杂 、 前 提 假 设 严 茄 以 及 需 较 大 样本 量 等 
AEG SE, 2018; 康 春花 等 , 2015; Chiu et al., 
2018)。 基 于 此 ,本 研究 提出 了 两 种 适用 于 mcCD- 
CAT 的 非 参 数 选 题 策略 (HDDmc 和 JDDmc), 并 且 
还 提出 两 种 变 长 CD-CAT 情境 下 的 终止 规则 。 通过 
两 个 模拟 研究 系统 地 探讨 了 二 者 在 mcCD-CAT 中 
的 表现 情况 。 结 果 发 现 , 定 长 实验 条 件 下 ， 非 参数 
选 题 策略 HDDmc 和 JDDmc 可 以 获得 较 参 数 选 题 
策略 更 加 准确 的 分 类 结果 ,并且 其 题库 使 用 情况 明 
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显 好 于 参数 选 题 策 略 。 6.1.3 Q 和 矩阵 复杂 程度 对 分 类 准确 性 有 正 向 影响 


6.1.1 ”控制 简单 Q 矩阵 和 混合 题目 质量 条 件 下 ， 
属性 个 数 对 非 参 数 选 题 策略 有 消极 影响 

模拟 研究 1 的 结果 显示 , 4 个 属性 时 , HDDmc 
All JDDmce 在 简单 Q 矩阵 和 混合 题目 质量 下 的 分 类 
准确 性 整体 要 优 于 JSD 方法 , 但 在 6 个 属性 时 , JSD 
的 分 类 准确 性 则 高 于 HDDmc 和 JDDmc, 特别 是 测 
验 长 度 为 2K 和 3K 时。 该 结果 产生 的 可 能 原因 是 4 
个 属性 时 , HDDmc 和 JDDmc 倾向 于 选择 特定 的 题 
HÆ, 而 6 个 属性 时 ， 二 者 所 选择 的 题目 集 范 围 更 
广泛 。 当 候选 题目 集 范 围 较 为 广泛 时 ， 由 于 是 从 题 
目 集中 随机 选择 一 个 题目 ， 故 导致 非 参 数 选 题 策略 
可 能 无 法 获得 最 佳 的 测验 题目 ， 从 而 产生 较 低 的 分 
类 准确 性 ; 而 参数 选 题 策略 则 可 以 计算 各 个 题目 的 
JSD， 再 确定 性 地 从 题目 集中 选择 具有 最 大 ISD 值 
的 题目 。 这 也 许可 以 从 题库 使 用 情况 对 其 进行 论 
证 :HDDmc 和 JDDmc 在 4 和 6 个 属性 下 的 整体 曝 
光 率 、 测 验 重合 率 和 过 度 曝 光 率 三 个 方面 的 差异 比 
Be), 但 曝光 不 足 率 方面 ,二 者 在 4 和 6 个 属性 上 
的 差异 则 比较 大 , 说 明 HDDmc 和 JDDmc 在 4 个 属 
性 下 存在 大 量 曝光 不 足 的 题目 ,这 一 定 程度 上 反 疝 
说 明 该 条 件 下 HDDmc 和 JDDmc 倾向 于 选择 特定 
的 某 些 题目 集 。 
6.1.2 MR 和 DR 规则 在 平衡 准确 性 和 题库 使 用 间 

的 表现 较 D1 和 D3 规则 稍 差 

模拟 研究 2 的 结果 显示 , 人 研究 提出 的 两 种 新 的 
非 参数 终止 规则 可 以 获得 较 DI 和 D3 更 高 的 分 类 
准确 性 , 但 其 代价 则 是 需要 更 多 的 测验 题目 ,特别 
是 DR 规则 ， 其 所 需 的 题目 数 明显 多 于 其 它 3 种 规 
则 ， 该 规则 下 的 平均 测验 长 度 均 在 10.0 以 上 。 妆 然 ， 
这 也 跟 研 究 的 设 定 有 关 ，MR 规则 下 , 个体 需 连续 
获得 4 个 完全 一 致 性 的 AMP 值 时 测验 方 能 结束 ， 
而 DR 规则 下 ,第 二 小 和 最 小 的 距离 之 间 的 比值 需 
在 1.3 或 1.25 时 , 测验 才能 结束 ， 这 些 设 定 相对 于 
D1 和 D3 而 言 , 更 加 严 奇 , 因而 其 需要 更 多 的 测验 
题目 , 进而 导致 更 高 的 分 类 准确 性 ,这 是 CAT 情境 
中 一 直面 临 的 利益 权衡 问题 ( 陈 平 等 ,2011; SB AA 
等 , 2015; BABB, 辛 涛 , 2013; 孙 小 坚 等 , 2021)。 
FKE, MR 和 DR 规则 下 分 类 准确 性 的 高 低 和 题库 
使 用 情况 之 间 的 利益 权衡 可 通过 研究 设置 给 予 实 
现 ， 当 研究 目的 在 于 尽 可 能 获得 准确 分 类 结果 时 ， 
可 增加 MR 规则 下 连续 一 致 性 AMP 值 的 次 数 和 增 
大 DR 规则 中 的 CR 值 ; 反之 , 则 可 以 适当 减少 。 


两 个 模拟 研究 的 结果 还 显示 ,相对 于 简单 Q AR 
阵 ，3 种 选 题 方法 在 复杂 Q 矩阵 下 的 分 类 准确 性 更 
高 。 其 原因 可 能 在 于 简单 Q 矩阵 情境 下 ， 题 库 中 大 
部 分 题目 只 测量 了 一 个 属性 (本 人 研究 中 4 和 6 个 属 
性 时 各 有 317 和 252 个 题目 ), 这些 题目 的 干扰 项 没 
有 提供 任何 额外 信息 ， 因 此 简单 Q@ 和 矩阵 中 的 题目 提 
供 的 选项 信息 有 限 。 而 复杂 Q 矩阵 下 ， 只 测量 一 个 
属性 的 题目 比例 则 比较 少 (本 人 研究 中 4 和 6 个 属性 
下 分 别 仅 有 26.25% 和 9.79% 的 比例 )， 剩余 题目 的 
干扰 项 均 能 提供 诊断 信息 ,因此 在 复杂 Q 和 矩阵 下 可 
得 到 更 高 的 分 类 准确 性 。 

6.1.4 HDDmc 和 JDDmc 不 依赖 于 预测 试 的 样本 量 

基于 两 个 模拟 研究 的 分 析 过 程 可 以 发 现 , 在 正 
式 测 试 之 前 ， 需 进行 预测 试 以 获得 题目 参数 的 估计 
值 ， 从 而 为 后 续 的 正式 测试 提供 题目 参数 信息 。 而 
前 人 研究 发 现 ， 预 测试 的 样本 量 会 影响 参数 选 题 策 
略 的 估计 准确 性 ， 预 测试 样本 量 越 大 ， 则 参数 选 题 
策略 的 估计 准确 性 也 越 高 (Huang，2018; Sun et al., 
2020)。 其 原因 在 于 样本 量 较 小 时 ， 参 数 估 计 的 误差 
将 比较 大 ， 而 参数 选 题 策略 直接 将 误差 较 大 的 题目 
参数 估计 值 作 为 正式 测试 中 的 真 值 从 而 影响 个 体 
AMP 的 估计 准确 性 。 如 此 , 可 以 预期 ， 较 小 的 预测 
试 样 本 量 将 影响 ISD 的 分 类 结果 。 反观 HDDmc 和 
JDDmc， 二 者 不 需要 进行 预测 试 ， 因 而 预测 试 的 样 
本 量 大 小 不 会 对 其 产生 影响 ， 该 结果 与 以 往 关 于 非 
参数 诊断 方法 的 研究 结果 相同 (如 : 康 春 花 等 ， 
2019; SHARE 等 , 2015). 

6.4.5 ”研究 不 足 与 展望 

本 研究 丰富 了 关于 mcCD-CAT 的 研究 。 当 然 ， 
后 续 研 究 还 可 从 以 下 几 个 方面 进行 深入 探究 : (1) Q 
矩阵 方面 , MC-DINA 模型 要 求 干 扰 项 的 g 向 量 必须 
是 正确 选项 的 子 集 , 但 实际 的 测验 编制 过 程 中 , 干 
扰 项 的 q 向 量 不 属于 正确 选项 的 子 集 同样 有 可 能 发 
EGBE, 周文 杰 , 2021)， 因 此 后 续 研 究 可 对 此 进行 
探讨 ,(2) 研 究 只 考虑 了 个 体 在 各 选项 上 的 作答 情况 ， 
其 他 信息 如 作答 时 间 等 变量 同样 可 以 提供 额外 的 
诊断 信息 ,后 续 研究 可 尝试 将 时 间 信 息 给 予 考虑 。 
(3) 研 究 为 模拟 研究 ， 各 方面 可 以 进行 严格 控制 ， 而 
实际 测验 情境 将 会 更 加 复杂 ， 因 此 ， 非 参数 方法 在 
实证 研究 中 的 效果 如 何 需 要 进一步 验证 。 

62 ”研究 结论 
基于 两 个 模拟 研究 的 结果 , 研究 得 到 以 下 结 
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i£: () 两 种 非 参数 选 题 策略 均 适 用 于 mcCD-CAT 
情境 ， 二 者 均 获得 较 高 的 分 类 准确 性 ， 因 此 , 使 用 
者 可 以 任 选 其 一 ; (2) 两 种 非 参数 方法 具有 较为 均匀 
的 题库 使 用 情况 ,一定 程 度 上 保证 了 题库 的 安全 性 ; 
(3) 两 种 非 参 数 终 止 规则 适用 于 变 长 mcCD-CAT fii 
境 ， 可 依据 测验 目的 灵活 地 平衡 准确 性 和 题库 使 用 
情况 ; 当 测验 追求 精度 时 ，MR 规则 的 连续 相等 次 
数 可 设置 为 5 次 及 以 上 , 而 DR 规则 下 的 CR 值 则 
可 以 设置 为 1.5 及 以 上 ; 反之 , 则 可 以 降低 MR 规 
则 中 的 次 数 和 DR 规则 中 的 CR 值 。 
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Abstract 
Most existing cognitive diagnostic computerized adaptive testing (CD-CAT) item selection methods ignore 


the diagnostic information that distractors provide for multiple-choice (MC) items. Consequently, some useful 


information is missed and resources are wasted. To overcome this, researchers proposed the Jensen-Shannon 


divergence (JSD) strategy to select items with the MC-DINA model. However, the JSD strategy needs large 


samples to obtain reliable estimates of the item parameters before the formal test, and this could compromise the 
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items in the bank. By contrast, the nonparametric method does not require any parameter calibration before the 
formal test and can be used in small educational programs. 

The current study proposes two nonparametric item selection methods (i.e., HDDmc and JDDmc) for 
CD-CAT with MC items as well as two termination rules (i.e., MR and DR) for variable-length CD-CAT with 
MC items. Two simulation studies were conducted to examine the performance of these nonparametric item 
selection methods and termination rules. 

The first study examined the performance of the HDDmc and JDDmc with fixed-length CD-CAT. In this 
study, six factors were manipulated: the number of attributes (K — 4 vs. 6), the structure of the Q-matrix (simple 
vs. complex), the quality of the item bank (high vs. low vs. mixed), the distribution of the attribute profile 
(multivariate normal threshold model vs. discrete uniform distribution), the test length (two vs. three vs. four 
times of K), and the item selection methods (HDDmc vs. JDDmc vs. JSD). Of these, item selection method was 
the within-group variable, and the rest were between-group variables. The results showed that: (1) the HDDmc 
and JDDmc produced higher attribute pattern matched ratios (PMRs) than the JSD method for most conditions; 
(2) the HDDmc and JDDmc produced similar PMRs for all conditions; (3) the HDDmc and JDDmc produced 
more even distributions of item exposure than the JSD method. 

The second simulation study investigated the performance of the MR and DR with variable-length CD-CAT. 
Six factors were also manipulated in this study: the settings for the number of attributes, the structure of the 
Q-matrix, the quality of the item bank, and the distribution of the attribute profile were the same as in the first 
study; the other two factors were termination rules (MR, DR, D1, and D3) and item selection methods (HDDmc 
and JDDmc). Again, the first four were between-group variables, while termination rules and item selection 
methods were within-group variables. The results showed that: (1) the HDDmc and JDDmc yielded higher 
PMRs for MR and DR rules than for the D1 and D3 rules; (2) the HDDmc and JDDmc yielded longer test 
lengths for MR and DR rules than for the D1 and D3 rules, especially for the JDD rule. 

In sum, both nonparametric item selection methods and the two new termination rules proved appropriate 
for CD-CAT with MC items, which means they can be used to balance the trade-off between measurement 
accuracy and item exposure rate. 

Key words cognitive diagnostic computerized adaptive testing, multiple-choice items, nonparametric item selection 
method, termination rule 


